反欺诈之血缘关系分析和犯罪传导监测
文前小故事:隔壁阿姨最近总是带个包鬼鬼祟祟地出去,妈妈好奇,今天跑过去串门,问她最近在忙什么,她一下就忍不住哭了起来:
我被人骗了……好多人去要钱……我把我姐和我女儿也坑了……那是我姐夫的安葬费……还有我侄子……
妈妈安慰她,让她慢慢说。然后才理出了事情的原委:她在超市门口接到小传单,理财投资,年化18%~24%,就自己投了10万块进去,感觉很好,每个月都返利息,还安排他们去旅游,送各种日用品。后来,她陆续拉着自己的姐姐,女儿,侄子,七大姑八大姨都去投资,自己也追投了几十万。去年4月份,投资公司老板跑路到了美国。从去年到现在,她总是去参与各种各样的“讨债”活动,但也都是无功而返。
这样的事情并不少见,一个人是受害者,会无意间牵连自己的亲朋好友也成了受害者;一个人推销保险,也都是先从亲戚朋友下手;一个人搞传销,会把亲爸亲妈亲同学发展成下线;一个人犯罪,会拉着全村人一起犯罪(比如电影《巨额来电》中的林阿海)……
近期,一银行找到我,说他们现在有一个立项,题目是《数据血缘关系智能分析和犯罪风险传导监测》,希望听听我的建议。今天正好听到妈妈跟我说起这件事,就想,还是针对这个课题,好好整理下思路,讲一讲我的看法吧。同样还是黄姐姐的风格,为了仅围绕反欺诈做探讨,本文仅会讲解与反欺诈相关的知识点,想系统学习的朋友,请参照其他资料。
#数据血缘关系
数据血缘关系,英文Pedigree,也称Provenance或linkage,指的是数据源(source)到衍生(derivation)字段的链路,也就是数据从产生,到加工组合拆解,再到最后消亡的整个生命周期的过程,用一个成语概括,就是数据的“来龙去脉”。之所以称为“血缘关系”,是因为这与人类社会很像。通过一步的加工可类比“直系血亲”,通过多步的加工可类比“旁系血亲”。这里举个例子,以下是从一个用户那里获取的user agent
Mozilla/5.0 (Linux; Android 7.0; BAC-AL00 Build/HUAWEIBAC-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/6.2 TBS/044022 Mobile Safari/537.36 MicroMessenger/6.6.6.1300(0x26060634) NetType/WIFI Language/zh_CN
从这里,我们可以分解出:手机品牌、操作系统、版本号、网络情况、浏览器信息等等,这些字段的“父亲”就是user agent,属于直系血亲。现在,我们通过这里解析的操作系统+版本号,再加上从其他渠道获得的device id和电池电量,将4个字段组合成一个新字段,命名fingerprint。那么,fingerprint则拥有4个“父亲”,与user agent属于旁系血亲。市面上有很多帮忙梳理数据血缘关系的工具,基本思路都是将其链路可视化。一般有:信息节点、数据流转线路、清洗规则节点、转换规则节点、数据归档销毁规则节点。
对于反欺诈建模,数据清洗和特征衍生往往是第一步,也是最为重要的一步。可以说,数据质量直接影响着模型结果(用烂水果,无论如何都榨不出一杯美味的果汁)。而数据血缘关系,无论从数据价值评估还是从数据关系梳理上,都可以给建模人员提供有效的帮助。这里再举一个前两天遇到的案例,一个群组84人,我们发现这些人有人用wifi,有人用4G,IP却完全相同,十分诡异。在去对这一现象做判断前,我们先是要确定数据的准确性,也就是追根溯源,看网络信息是从哪个源头衍生出来的,再去判断这个源头的有效性。如果有一个好的数据血缘分析工具,则可以快速定位。如果判断数据准确,才能再进行下一步分析:使用4G的IP是否都是定位在运营商基站?同一地点连接的基站是否会跳转?是否有人开了热点?还是这是模拟器造成的诡异现象?
总之,数据血缘关系分析,可以应用于整个反欺诈建模过程:从数据预处理,参数初始化,到结果分析。
#犯罪风险传导
一提到风险传导,可能很多业内人士都会想到宏观经济中的其他风险向业内传导,比如整个经济的大萧条;或者微观经济中银行间或同一银行业务间的风险传导。事实上,犯罪风险传导与此类似,也都是从风险源,经过某些传导载体,传导到各个节点,最后再传递到我们的研究对象,也就是风险接受者。这一过程,可能还有外部风险的影响,比如政策影响、失业比例等等。如下图所示:
为了方便大家理解,这里举个例子。信用卡代还业务刚刚兴起时,银行信用卡坏账率有显著的下降。因为银行信用卡的逾期会上征信,所以一是很多暂时没办法偿还信用卡的人,会利用信用卡代还业务偿还信用卡,这样,银行的信用风险降低了。另外,很多信用卡代还业务在推广期,对人员资质审核要求比较低,所以很多骗贷人员也盯上了这一福利,进行大肆骗贷,也给银行的欺诈风险减压。某一新型业务的兴起,通常会在短期内影响整个大环境的风险分布,信用卡代还就是一个典型案例。一段时间后,信用卡代还业务的风控不断加强,口子不断收紧,会导致骗贷团伙转移到其他口子,比如P2P或者消费贷。
对于反欺诈的犯罪风险传导,一是要从业务层面分析;二是从数据层面分析。对于前者,需要从政策、宏观经济、失业率、同业分析、近业分析、竞业分析等等角度来看(比如信用卡代还对信用卡逾期的影响);对于后者,则可以借助各种数学模型来分析。以下以图分析为例,简单介绍如何进行犯罪风险传导分析。图分析理论中最经典的要数社交网络分析,关于社交网络分析的基础知识和应用请参照黄姐姐之前的系列文章《基于社交网络分析算法(SNA)的反欺诈》。
首先,我们要明确犯罪风险传导监测的目的,那就是提前预警。也就是对于一个群组,当某几个人开始犯案时,其犯案手段可能会传导到其他人,或者带领其他人一起犯案,就像文前小故事里提到的几个例子。这里,首先犯案的可以理解成风险传导图中的“风险源”,传导载体可以理解成社交网络分析中的“边”,节点可以理解成关联社群(community),风险接受者就是我们想要去阻拦的潜在犯罪者。
现在,假设我们已经通过社交网络分析发现了一个团体,其关联性比如:
1. 同时连接过某一个wifi,假设wifi名叫“撸个口子回家过年”;
2.同时办理了某银行的某个卡种的信用卡;
3. 都居住在某个小区,白天GPS定位显示都集中在某个棋牌室;
4. 同一天出现了异地消费。
这时,我们发现,红圈中圈出来的5个人都向银行提出了贷款申请,其中2个人审批通过且已经出现M3+逾期,另外3人被拒。这时,我们就有理由怀疑,整个群组都有骗贷嫌疑。那么,对于这个群体,其在进行贷款或信用卡申请时,我们则需要特别注意,要么拒绝,要么降低其额度,以降低风险。
进一步分析,其背后动机可能是这样的:一群闲散人员,不务正业,每天的工作就是打麻将,他们相互认识。可能在某天被某个外部人员游说,带其到某个诈骗团伙接受培训,并交了入伙费(异地消费),回来后,他们也开始从事诈骗工作,第一步就是骗贷。而为了试探什么样的条件才能通过银行贷款审核,红圈中的五个人身先士卒,进行尝试。对于其中2个成功骗贷的人,就可以作为成功范例,传授其他人经验(开始传导)。
对于犯罪风险传导监测模型的收益,黄姐姐拿一个实际案例来举例,在C银行的合作项目中,我们采用犯罪风险传导监控,对潜伏用户做提前预警,结果是平均可以比C银行提前2.5天发现坏人,44%的用户至少提前1天就被检测到其犯罪动机。如下图所示,发现我们的检测点都集中在0-20天,而C银行的检测则在0-60天均匀分布。
对于检测量,可以看到,通过潜伏分析,可以大大改善C银行延迟检测的尾部效应,如下图所示:
结语:当今的社会是一个关系型社会,一个圈子会倾向于做同一件事,同为受害者或欺诈者。比如,孤寡老人圈子会成为电信诈骗的目标,而犯罪团伙也通常是曾经的朋友或者亲戚组成的,就算你一个外人想加入,也必须通过熟人介绍才行,也已然成为行规。数据血缘关系分析作为反欺诈建模的基础,犯罪风险传导监测则作为反欺诈建模的理论依据和目标,越来越受到银行风控领域的重视。
[1] Provenance, Lineage, and Workflows:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.406.8789&rep=rep1&type=pdf
[2] 数据之间有血缘关系?数据治理不得不懂的血缘关系梳理方法
http://www.sohu.com/a/161142366_99934777
[3]风险传导机理与风险能量理论
https://wenku.baidu.com/view/ef9f413ff08583d049649b6648d7c1c708a10b86.html
[4]商业银行风险传导
http://www.docin.com/p-1270342141.html
来源|知乎
作者|DataVisor黄姐姐
想获知更多关于互金反欺诈的深度内容,欢迎参加黄姐姐的公开课
点击阅读原文,即可报名
更多精彩,戳这里: